Как мы в очередной раз пытаемся заменить людей на роботов

Эта история о том, как мы в 4-ый раз запускаем стартап.

Как появилась идея

Всё началось с увиденного поста про новую платформу Maxine с ИИ для апгрейда видеосвязи от Nvidia, одна из особенностей этой платформы является синхронный перевод в виде титров, данная фича реализована при помощи фреймворка от той же Nvidia под название Jarvis, данный фреймворк предназначен для мультимодальных разговорных сервисов искусственного интеллекта, обеспечивающая производительность графических процессоров в реальном времени. Именно эта концепция синхронного перевода легла в основу нашей платформы аудио- и видео- связи. Поскольку это новая платформа, она должна иметь ряд особенностей по сравнению с другими подобными платформами, поэтому мы решили добавить этим титрам голос, формируя голосовой профиль пользователя и синтезируя речь с учётом тональности и окраса голоса человека, который говорит.

Речь в текст или распознавание речи

Что лучше использовать Google, Яндекс или Mozilla?

Читать далее →